Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Numérisation et codage des caractères de livres anciens

Identifieur interne : 001760 ( Main/Exploration ); précédent : 001759; suivant : 001761

Numérisation et codage des caractères de livres anciens

Auteurs : Jacques Andre [France]

Source :

RBID : Pascal:04-0290029

Descripteurs français

English descriptors

Abstract

La numérisation des livres anciens n'a pas été abordée aussi bien que celle des ouvrages manuscrits anciens, du moins en ce qui concerne les caractères. Or, avant de faire de la reconnaissance de caractères, encore faut-il avoir un certaine connaissance de ceux-ci. Par ailleurs, restituer un ouvrage avec ses caractéristiques typographiques peut induire des recherches qui sinon seraient impossibles. Nous présentons alors le projet Cassetin dont le but est de faire un inventaire des caractères d'imprimerie utilisés depuis le XVe siècle et de proposer une normalisation de leur codage (sous forme d'entités ou de caractères au sens d'Unicode) de façon à rendre portables les sorties d'OCR.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Numérisation et codage des caractères de livres anciens</title>
<author>
<name sortKey="Andre, Jacques" sort="Andre, Jacques" uniqKey="Andre J" first="Jacques" last="Andre">Jacques Andre</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>IRISA/INRIA Rennes, Campus universitaire de Beaulieu</s1>
<s2>35042 Rennes</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Région Bretagne</region>
<settlement type="city">Rennes</settlement>
</placeName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">04-0290029</idno>
<date when="2003">2003</date>
<idno type="stanalyst">PASCAL 04-0290029 INIST</idno>
<idno type="RBID">Pascal:04-0290029</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000541</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000249</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000523</idno>
<idno type="wicri:doubleKey">1279-5127:2003:Andre J:numerisation:et:codage</idno>
<idno type="wicri:Area/Main/Merge">001837</idno>
<idno type="wicri:Area/Main/Curation">001760</idno>
<idno type="wicri:Area/Main/Exploration">001760</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Numérisation et codage des caractères de livres anciens</title>
<author>
<name sortKey="Andre, Jacques" sort="Andre, Jacques" uniqKey="Andre J" first="Jacques" last="Andre">Jacques Andre</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>IRISA/INRIA Rennes, Campus universitaire de Beaulieu</s1>
<s2>35042 Rennes</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Région Bretagne</region>
<settlement type="city">Rennes</settlement>
</placeName>
</affiliation>
</author>
</analytic>
<series>
<title level="j" type="main">Document numérique</title>
<title level="j" type="abbreviated">Doc. numér.</title>
<idno type="ISSN">1279-5127</idno>
<imprint>
<date when="2003">2003</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<title level="j" type="main">Document numérique</title>
<title level="j" type="abbreviated">Doc. numér.</title>
<idno type="ISSN">1279-5127</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Book</term>
<term>Character recognition</term>
<term>Coding</term>
<term>Digitizing</term>
<term>Old document</term>
<term>Project</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Numérisation</term>
<term>Livre</term>
<term>Codage</term>
<term>Reconnaissance caractère</term>
<term>Projet</term>
<term>Document ancien</term>
<term>Unicode</term>
<term>Cassetin (projet)</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr">
<term>Numérisation</term>
<term>Codage</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">La numérisation des livres anciens n'a pas été abordée aussi bien que celle des ouvrages manuscrits anciens, du moins en ce qui concerne les caractères. Or, avant de faire de la reconnaissance de caractères, encore faut-il avoir un certaine connaissance de ceux-ci. Par ailleurs, restituer un ouvrage avec ses caractéristiques typographiques peut induire des recherches qui sinon seraient impossibles. Nous présentons alors le projet Cassetin dont le but est de faire un inventaire des caractères d'imprimerie utilisés depuis le XV
<sup>e</sup>
siècle et de proposer une normalisation de leur codage (sous forme d'entités ou de caractères au sens d'Unicode) de façon à rendre portables les sorties d'OCR.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Région Bretagne</li>
</region>
<settlement>
<li>Rennes</li>
</settlement>
</list>
<tree>
<country name="France">
<region name="Région Bretagne">
<name sortKey="Andre, Jacques" sort="Andre, Jacques" uniqKey="Andre J" first="Jacques" last="Andre">Jacques Andre</name>
</region>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001760 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 001760 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Pascal:04-0290029
   |texte=   Numérisation et codage des caractères de livres anciens
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024